Film är ett visuellt språk, och som alla språk har det därför en grammatik.
Låt oss gå in på vad det innebär, en gång för alla.
Tidigare detta år skrev jag en slags introduktion till filmen som visuellt språk, men jag inser att tanken fortfarande kan framstå som lite lätt abstrakt. Många som skriver om, eller på andra sätt bryr sig om film tenderar att ignorera tanken på film som ett språk eftersom den är för jobbig. Film ska vara kul, är ofta andemeningen hos många som skriver om film. Det ska vara känslodrivet och tolkningarna subjektiva. Tanken på att film kan ”listas ut” är lite hotfull och många reagerar lite allergiskt mot den – och alla analyser, särskilt de som är mer tekniska, avfärdas ofta som en massa irrelevant ”tråk”.
Denna höst ska jag skriva en serie analyser om hur tid behandlas på film, och i samma veva kan jag förhoppningsvis argumentera för varför det är lika nyttigt som viktigt att se på film som ett språk. (Och hur det faktiskt blir ännu roligare om man gör det!)
Men först måste vi bli klara över vad filmspråket överhuvudtaget är. Och för att bli klara över det måste vi veta vad ett språk överhuvudtaget är.
Automatiskt vill många koppla ihop begreppet ”språk” med ord. Men ett språk är, i allra mest tekniska definition, ett system av symboler som används för kommunikation. Notera att symboler inte behöver vara just ord. Teckenspråk innehåller ju till exempel inga ord. Inte heller vägskyltar:
Dessa skyltar bildar ett symbolsystem, alltså ett språk. Man kan se den här bilden som ett alfabet för vägskyltar.
Klart och tydligt är också att trafikmärkena utgör ett visuellt språk.
Visuella språk är alltså en falang för sig.
Och film är, därmed, ett visuellt språk. Det skiljer sig från andra visuella språk på samma sätt som kinesiskan skiljer sig från svenskan. Filmspråket liknar vissa andra visuella språk, som till exempel det visuella språket serier – på samma sätt som svenskan liknar danskan – men kan inte jämföras på samma sätt.
Hur definierar man då grammatik?
Jo, som ett regelsystem för språket.
Och hur bestämmer man en språkregel?
Det gör man inte, rent tekniskt. Språket bestämmer sig självt. Ordet katt överensstämmer med djuret katt av ingen annan anledning än att vi ”bestämt” det. Eller kort och gott för att det helt enkelt blivit så.
Genom grammatik definierar man hur språket faktiskt används, och därefter katalogiserar man användningsområdet in i ett system. Det finns ett par generella principer och många gråzoner. De flesta språk är otroligt godtyckliga. Man kan säga att ”katten är min”. Menar man att katten är ens egen eller är det bara ett fragment? Katten är min… bästa vän?
Att ordet ”katt” är ett obestämt substantiv, att ordet ”katten” är ett substantiv i bestämd form, det är regler som existerar bara för att det är så vi använder språket. Det har ingen högre, logisk ordning. Om det av någon anledning skulle bli populärt att sluta prata i bestämd form så skulle det upphöra att vara en grammatisk regel.
Och i vilket fall som helst har vi fraser som: ”Katten också”. Utan vidare kontext vet vi inte vad den frasen betyder.
Vad är kännetecknet, då, för filmens visuella språk?
Det mest uppenbara är förstås att filmen som uppfinning handlar om rörliga bilder – inte rörliga bilder som när du ritar figurer på papper som du sedan bläddrar fram (eller Muybridges zoopraxiscope) utan rörliga bilder som de fångas på en film- eller videokamera. Detta är hela förutsättningen för att filmspråket kan identifieras – den skiljer sig från andra visuella språk genom att någon filmat, och därmed avsiktligen skapat, bilden.
Detta låter självklart, och kanske det är därför förutsättningen tas för givet. Ofta när bilder analyseras så analyserar man vad man ser i bilden med blotta ögat utan att börja från början och fråga sig vem som skapat bilden, hur och i vilket sammanhang.
Men så fort man filmar något så har man skapat en bild, på ett visst sätt, och i ett visst sammanhang.
Därför finns det få filmbilder som kan sägas fungera som ord i ett verbalt språk, så att säga i obestämd form.
Den här bilden från Buena Vista Social Club (som jag nyligen analyserade i ett annat sammanhang) är ju lite svår att tyda, till exempel. Men det är en närbild, en handhållen tagning, från en scen i en dokumentär och den är (såvitt ögat kan se) naturligt ljussatt. Bildformatet är widescreen (1.85:1) och bilden är fotad på digital video.
Man kan dela upp de här egenskaperna i obligatoriska och kategoriska områden.
Obligatoriska områden är saker som är vad de är, teknikaliteter som bildformatet, den tekniska källan, huruvida det är en närbild eller en helbild, och så vidare.
Kategoriska områden har, förstås, att göra med filmens kategori. Dessa termer existerar bara för att man bestämt att de existerar, vilket man gjort eftersom filmer helt enkelt görs på ett visst sätt.
Ett annat arkivexempel är shot-reverse-shot-klippet, här från The Shining (1980):
Ingenting bevisar att detta är två män som pratar med varandra, men när vi klipper mellan dem så läser vi automatiskt scenen så. Det är helt enkelt så filmspråket utvecklats. Det är därför en sådan kategorisk regel, en grammatisk språkprincip som vilken annan som helst.
Ett jämförbart exempel i Buena Vista Social Club är kontinuitetsklippet där vi klipper från män i en bil till utsidan av en limousin
Vi utgår genast ifrån att männen vi nyss såg sitter inuti bilen. Ingenting har förklarat det för oss, men vi kan helt enkelt språket.
För att återgå till The Shining kan vi studera filmens och litteraturens språk genom att jämföra scenen med den matchande sekvensen i boken av Stephen King, som filmen bygger på:
Medan Jack lyssnade på Ullman måste han erkänna för sig själv, att han förmodligen inte skulle ha tyckt om någon karl på den där andra sidan av skrivbordet.
Den här meningen avslöjar att Jack finns, att Ullman finns, och att de sitter på varsin sida av ett skrivbord. Detta är ett exempel på litterärt språk, där förståelsen skapas genom orden. Ofta pratar man om saker som ”karaktärsmotivation” och ”inre konflikt”, men man ska inte glömma eller ta för givet att det är den specifika formuleringen av meningen som gör att vi överhuvudtaget kan förstå själva scenen.
Kubrick varken kan eller behöver förklara för oss att det finns ett skrivbord – vi ser skrivbordet i bild. Men genom att filma Ullman som pratar och Jack som svarar så förstår vi samma sak – att de sitter på varsin sida av skrivbordet och pratar.
Om en publik från 1890-talet skulle ha sett den här scenen skulle de troligen vara förvirrade (till vilken grad går att diskutera). Men vi har lärt oss att det helt enkelt är såhär filmspråket fungerar.
Låt oss ta en titt på ett till slumpmässigt exempel…
Här har vi en bild från Brian DePalmas Snake Eyes (1998), något jämförbar med den från The Shining. Hur definierar vi den?
Spontant – två män vid en bardisk, pratar (gissningsvis). En man står och en annan sitter, vilket vi på ett symboliskt plan kan läsa av – det föreslår ett maktspel, särskilt eftersom den ene är klädd och den andre har någon slags rock på sig. Men denna princip återfinner vi även i målningar eller fotografier – och börjar vi tolka vad det vi ser betyder så utgår vi redan från att scenen är filmad.
Det intressanta är att vem som helst som skulle se den här bilden, det är jag övertygad om, skulle säga att den kom från en narrativ spelfilm. Detta är inte ett stillbildsfoto. Det är inte taget ur en dokumentär eller en musikvideo. Vi ser att det är en spelfilm.
Hur kommer det sig?
Vi känner igen skådespelarna, ja, särskilt Nicolas Cage, ja, men jag tror ändå att ingen skulle tro att bilden är från en whiskyreklam. Vi ser helt enkelt att det är från en spelfilm och inget annat.
Ett otränat öga skulle kanske säga att det är något med bildkvalitén, eller att allt ser så snyggt ut. Men saker kan se snygga ut i en TV-reklam också. Den här bilden kommer från en spelfilm gjord för bio. Alla kan se det.
Det är inte magi. Vi reagerar på helt verkliga saker. Ju mer av filmspråket man behärskar desto mer vet man vad man faktiskt har framför ögonen och vad det är man faktiskt reagerar på.
Vissa ledtrådar kommer från vad vi tekniskt sett ser i bild och vad vi vet om olika typer av filmer. Särskilt finns många ledtrådar om att detta är en thriller. Vi är i en bar. Tittar vi extra noga kan vi lista ut att mannen till höger håller på att skriva en autograf, varpå vi kan räkna ut att Cages karaktär troligen är en privatdetektiv á la Sam Spade. Whisky och leopardmönster (på ryggstödet) är nämligen också objekt vi känner igen från film noir-världen. Den som sett många gamla gangsterfilmer känner också igen mönstret på fönstret som är i bakgrunden – den typ av vagt art deco-liknande dekor som också syns i en film som Chinatown (1973) till exempel.
Men, återigen, dessa saker förklarar inte hur vi ser på en gång att det är just en spelfilm vi ser på.
En gång till:
En sak som avslöjar det är ljussättningen.
För den som inte vet så är alla professionella spelfilmer ljussatta. Fanns det inget ljus så skulle vi inte se någonting. Den som tittar på Cages panna, det upplysta trät till höger om fönstret och ljuskäglan kring dess högra hörn, samt skenet som faller på bardiskens kortända, kan se att den här scenens centrala ljuskälla (dess key light) kommer från en punkt ovanför skådespelarna, strax utanför bild. Någon slags spotlight skiner alltså i mitten av bilden, medan skådespelarna håller sig utanför det, vilket gör att de är det i bilden som är mest i skuggan.
Detta är typiskt för noir-genren, men även för thrillers överlag – TV-serier har blivit mer tekniskt påkostade idag, men för det mesta ser man bara sådan här ljussättning i spelfilmer. Det är en av sakerna vi reagerar på när vi säger att något ser ”filmiskt” ut.
En annan, och ännu mer avgörande sak, är bildformatet och bildkategorin.
Den här bilden är en mediumbild (medium shot) – detta avgörs mellan tummen och pekfingret på avskärningen av kropparna; vi ser inte en hel människa i bild (som i en helbild, eller wide shot) utan Nicolas Cage är kapad vid knäna ungefär. Men vi ser ändå större delen av honom, till skillnad från i en närbild (close-up).
I The Shining-exemplet använde Kubrick shot-reverse-shot för att ge oss samtalet runt skrivbordet. DePalma väljer istället att ha båda männen i en och samma bild (åtminstone i just det här exemplet). Samma jobb blir gjort, bara på ett annat sätt.
Ändå är det något som är mer ”filmiskt” med Snake Eyes-exemplet, eller hur?
Tittar vi på The Shining så är det mycket lättare att jämföra bilden med en TV-reklam eller en TV-serie. Jämför vi med bilden i Snake Eyes kan vi se att den är mycket bredare och smalare.
Det har att göra med att filmerna är fotade på olika bildformat. Bildformatet avgör bildens proportioner. Bildformatet på en fyrkant är till exempel 1:1 – en gånger en. Ju mer man drar ut bredden desto mer ökar bildformatet – 1.33:1 är till exempel bildformatet på din gamla platt-TV. En gånger en plus trettiotre (av hundra). På TV-språk säger man 4:3 men varför hålla på.
Bildformat används nu inte hipp som happ utan det finns ett par olika som återkommer. I flera årtionden var 1.37:1 standardformatet innan olika typer av widescreen började dominera. I Europa blev de vanligaste formaten 1.66:1 och 1.78:1. The Shining är, till exempel, fotad i formatet 1.78:1. I USA blev det vanligaste widescreen-formatet 1.85:1 innan det blev ”utkonkurrerat” av den anamorfiska scope-widescreen-formatet som ligger på 2.35:1 (vissa menar att det egentligen är 2.39:1 eller 2.40:1, men vi låter de riktiga nördarna bråka om det).
Det går att ramla ner i ett kaninhål om bildformat, så jag säger bara så mycket jag behöver.
Snake Eyes är fotad i scope-widescreen. Skillnaden mellan scope och vanlig widescreen (1.78 eller 1.85) är att bildutrymmet i scope är större i bredd och kortare i längd. Till någon mån går detta att se med blotta ögat, men det mest avgörande i formaten är inte formaten i sig utan oftast hur bildformaten typiskt sett används.
Eftersom scope är bredare och mer hoptryckt tenderar scope-bilden att rama in skådespelarna i bakgrunden på olika sätt – en människa är ju inte bred och tjock (förutom Danny DeVito).
Därför tenderar människorna i scope-bilder att stå en bit bort från kameran i typiska mediumbilder som den i Snake Eyes.
I filmer fotade i vanlig/gammal widescreen – 1.85 – är det vanligare att se kompositioner som denna, ur Kimberly Peirces Boys Don’t Cry (1999), fotad i 1.85:
Även i denna mediumsbild ser vi två personer i samma bild, men formatet tillåter Peirce att filma dem på närmre håll. Eftersom skalan är snävare i bredden och längre i höjden så ser människorna också naturligare ut rent fysiskt.
När man filmar i scope så är en sådan scen omöjlig att få till från samma avstånd. DePalmas variant blir denna:
Två personer brevid varandra och pratar, men bilden är för snäv i höjden för att kunna bestå av enbart dem (som i Boys Don’t Cry). De filmas därför på större avstånd, och då uppstår en massa utrymme som DePalma måste fylla – en hel bildkomposition måste skapas där skådespelarna bara är en del av bilden.
DePalma kan välja att till exempel rama in bilden med skådespelarna på var sin sida, vilket han också gör i det första Snake Eyes-exemplet.
Här är ett till exempel:
Widescreen-formatet har gott om utrymme. Frågan är hur man fyller upp bilden. DePalma leker på här genom att ge oss tre huvven helt enkelt.
Ett typiskt kännetecken för scope-skalan är att skådespelare ser onaturligt små ut, lite grann som leksaksfigurer i något slags dockhus. Det var lite detta Hitchcock menade när han sa att widescreen bara är bra för att ”filma ormar”.
Widescreen var länge synonymt med spelfilmer gjorda för bio, men har numera tagit sig in i de flesta filmkategorier, från TV-serier till reklamfilmer. Widescreen i den gamla meningen är praktiskt taget den nya standarden. Det mesta på TV – som ”True Detective” eller ”Game of Thrones” – är fotat i 1.78:1. Precis som The Shining.
Vi känner däremot igen scope-widescreen eftersom den fortfarande används just specifikt i spelfilmer och mer sällan i TV-produktioner. En annan sak som kan noteras är de svarta blecken ovanför och under bilden – jag har klippt bort dem från de tidigare exemplen, men har med dem nu. Detta är det enklaste sättet att se om en film är fotad i scope-widescreen – bilden måste avgränsas på video, för att den breda/hoppressade skalan ska kunna fungera. Den gamla widescreen-varianten var mer generös (notera de mer marginella blecken i Boys Don’t Cry). Det behöver inte innebära att scope alltid har svarta bleck på video – processen kan variera – men du hittar dem aldrig på en film gjord i 1.85 (vi som var med förr kan dock med fasa minnas det gamla letterbox-formatet på VHS, men mer om det en annan dag).
I Snake Eyes-exemplet är det alltså bildformatet och ljussättningen som främst säger till oss att vi ser på en bild från en spelfilm. (Att filmen är plåtad på 35mm kan också spela in, men det är inte alla som håller med så jag spar det till en annan gång). Vi kan placera in våra andra fynd efter det – genomtänkt och påkostad scenografi och kostym, samt diverse film noir-signaler – men det är inte fiktionen utan den tekniska verkligheten som vi reagerar på, läser av, kopplar till.
Jag tycker det är värt att veta.
Så, för att återkoppla till filmens grammatik.
Bilden från Snake Eyes är en stillbild från en tagning (shot) i en dialogscen i en narrativ spelfilm.
Tagningen är fotad i scope-widescreen. Bildkompositionen är symmetrisk, i det att den placerar figurerna i var sin sida av bilden, och därmed medveten, uträknad. Det är denna symmetri, placeringen av männen mitt emot varandra, som på en visuell nivå ger scenen en konflikt. Det är också ofta det visuella som är det mest centrala drivkraften i en film – inte bara manus, dialog, skådespeleri, som ofta får för mycket uppmärksamhet. Dessa saker kan ofta vara alibin, de ting som det visuella bär – utan en bild skulle det bli radioteater.
Tagningen är ljussatt med key light ovanifrån (för en noir-effekt, lyder en kvalificerad gissning). Detta betyder att kameran troligen är statiskt placerad för att filma just denna inramning och inget annat.
Man kan tänka sig, och ser man filmen vet man, att tagningen också är en mastershot (för shot-reverse-shot-klippning i resten av scenen).
Scenen har medveten dekor och kostym – dessa saker har inte kommit från ingenstans, utan de har byggts eller designats och det har kostat pengar. Detta är alltså en påkostad mainstreamfilm.
Så… låt oss nu trycka på play.
Shot…
… reverse shot.
Detta kommer inte som någon överraskning för den som kan läsa av filmspråket – vilket trots allt gäller för oss allihop.
Vi kan jämföra denna syntax med användandet av huvudsats och bisats i det svenska språket.
De stod mitt emot varandra i baren och den ene svor till den andre som lyssnade moloket.
Huvudsatsen: De stod mitt emot varandra i baren.
Bisats: och den ene svor till den andre
Bisats: som lyssnade moloket.
Så, för att få det sagt för framtiden: Ingen bild är en slump. Filmens grammatik är systemet som kartlägger filmens bilder, beroende på vilka samband de har. Detta har varit ett par exempel – poängen är att många finns, och att de är på riktigt.
FREDRIK FYHR
PS.
I en tidig upplaga av denna text stod det av outgrundlig anledning 1.88:1 vid två tillfällen, när det naturligtvis skulle stå 1.85:1.
5 svar på ”Vad är filmens grammatik?”